비순차적 명령어 처리

컴퓨터 공학에서 비순차적 명령어 처리 또는 비순차적 실행(out-of-order execution, 줄여서 OoOE, dynamic execution)은 고성능 마이크로프로세서가 특정한 종류의 지연으로 인해 낭비될 수 있는 명령 사이클을 이용하는 패러다임이다. 명령 실행 효율을 높이기 위해 순서에 따라 처리하지 않는 기법이며 수많은 프로세서가 채용하고 있다.

기본 개념

프로그래머는 프로그램을 짤 때 자신이 만든 코드가 차례대로 (분기문이 없다면 위에서 아래로) 실행될 것으로 믿는다. 순차 프로세서는 이 순서를 그대로 지켜가며 실행한다. 그러나 어떤 메모리 로드 명령어가 캐시 미스를 겪고 있다고 가정해 보자. 만약 이를 뒤따르는 명령어 가운데 이 로드 명령어와 상관이 없는 것이라면 분명 미리 실행할 수 있을 것이다. 또, 싱글 스레드 프로그램이라도 분명 동시에 처리할 수 있는 명령어가 있다. 이것을 명령어 수준 병렬성(Instruction Level Parallelism, ILP)이라 부른다. 비순차 프로세서는 하드웨어가 직접 실시간으로 ILP를 찾아 명령어 처리율을 극적으로 높인다. 보통 비순차 프로세서는 수퍼스케일러 프로세서 형태로 작성된다. 그래야 동시에 두 개 이상의 병렬로 실행가능한 명령어를 효과적으로 처리할 수 있기 때문이다. 이 명령어 수준 병렬성은 코드 상에 적혀진 순서가 아닌 데이터 혹은 제어의 흐름으로 제약된다. 이를 의존성이라 부르며 대표적으로 데이터 의존성, 컨트롤 의존성, 메모리 의존성이 있다. 요약하면 비순차 프로세서는 데이터 흐름을 찾아 처리하는 프로세서로 볼 수 있다. 그러나 하드웨어의 제약으로 ILP를 찾을 수 있는 범위가 제약적이다. 이 범위를 보통 명령어 윈도(Instruction Window)라 부르기도 한다. 현대 프로세서는 약 100여개 이상의 명령어 속에서 ILP를 찾아 비순차 실행을 한다.

순차적 처리 프로세서

옛 프로세서에서는 다음과 같은 단계로 명령어를 실행하였다.

명령어를 읽어들인다.
입력 연산(operand)이 준비되어 있으면(이를테면 메모리에서 레지스터로 로드함) 명령어는 적절한 실행 장치(functional unit)에 할당할 수 있다. 하나 이상의 연산이 현재의 클럭 사이클 동안에 사용할 수 없다면 이 연산들을 사용할 수 있을 때까지 프로세서는 대기한다.
적절한 실행 장치가 명령어를 실행한다.
실행 장치는 실행 결과들을 레지스터 파일에 기록한다.

비순차적 처리 프로세서

새로운 패러다임은 명령어와 실행 결과를 일시적으로 모아 두는 장소를 만들어 명령어 실행 과정을 다음과 같이 나눈다.:

명령어를 읽어들인다.
명령어 대기열(Reservation Station)에 명령어를 배치한다. 또, 리오더 버퍼(Reorder buffer)에도 할당한다.
대기열에 있는 명령어들은 자신의 피연산자(operand)가 완료가 되는지 계속 명령어 완료 결과를 엿듣는다.
피연산자가 모두 완료되면 이 명령어는 비로소 실행이 될 수 있고, 연산 장치(execution unit)에 필요한 장치를 요구한다.
필요한 장치를 받으면 대기열에서 빠지고 실행이 된다(리오더 버퍼에는 계속 남아있어야 한다).
실행을 마치면 이 결과를 대기열에서 기다리는 명령에들에게 뿌린다(broadcasting).
리오더 버퍼에 자신이 완료되었다고 표시한다. 만약 리오더 버퍼에서 자신이 가장 오래된 명령어라면 비로소 자신의 연산 결과(레지스터 혹은 메모리 결과)를 반영(commit)한다.

비순차 프로세서에서 유의해야할 점은 명령어 인출 단계와 맨 마지막 명령어 완료 단계는 반드시 순차적으로 이루어진다는 점이다. 이것은 프로그래머와의 약속이다. 명령어가 뒤죽박죽 완료된다면 프로그래머가 작업하기에 매우 어려울 것이다. 명령어 완료를 순차적으로 하기 위해 필요한 장치가 리오더 버퍼이다.

이 밖에도 비순차 프로세서는 보통 순차 프로세서에서 겪지 않는 WAR/WAW 위험이 발생한다. 이 문제를 해결하기 위해 레지스터 리네이밍(register renaming)이라는 기법을 이용한다.

같이 보기

리플레이 시스템

외부 링크

"Implementation of precise interrupts in pipelined processors", a paper by Smith and Pleszkun (1985).

v t e 프로세서 기술
구조	튜링 기계 포스트 튜링 기계 범용 튜링 기계 양자 튜링 기계 벨트 머신 스택 머신 레지스터 머신 카운터 머신 포인터 머신 랜덤 접근 기계 랜덤 액세스 스토어드 프로그램 머신 유한 상태 기계 큐 오토마톤 폰 노이만 하버드 (수정됨) 데이터플로 TTA 셀룰러 인공신경망 기계 학습 딥 러닝 신경 처리 장치 (NPU) 돌림형 신경망 로드/스토어 아키텍처 레지스터 메모리 아키텍처 엔디언 FIFO 제로 카피 NUMA HUMA HSA 모바일 컴퓨팅 서피스 컴퓨팅 착용 컴퓨팅 이기종 컴퓨팅 병렬 컴퓨팅 병행 컴퓨팅 분산 컴퓨팅 클라우드 컴퓨팅 무정형 컴퓨팅 유비쿼터스 컴퓨팅 패브릭 컴퓨팅 재배열 컴퓨팅 인지 컴퓨팅 아날로그 컴퓨팅 기계식 컴퓨팅 하이브리드 컴퓨팅 디지털 컴퓨팅 DNA 컴퓨팅 펩타이드 컴퓨팅 화학 컴퓨팅 유기 컴퓨팅 웻웨어 컴퓨팅 양자 컴퓨터 신경 모방 컴퓨팅 광 컴퓨터 리버서블 컴퓨팅 비전통 컴퓨팅 하이퍼 계산 3진법 컴퓨터 대칭형 다중 처리 (SMP) 비대칭형 다중 처리 (AMP) 캐시 계층 메모리 계층 구조
ISA 유형	ASIP CISC RISC EDGE (TRIPS) VLIW (EPIC) MISC OISC NISC ZISC 비교
ISA	X86 z/아키텍처 ARM MIPS 파워 아키텍처 (파워PC) SPARC 밀 아이테니엄 (IA-64) 알파 프리즘 슈퍼H V850 클리퍼 VAX 유니코어 PA-RISC 마이크로블레이즈 RISC-V
워드 크기	1비트 2비트 4비트 8비트 9비트 10비트 12비트 15비트 16비트 18비트 22비트 24비트 25비트 26비트 27비트 31비트 32비트 33비트 34비트 36비트 39비트 40비트 48비트 50비트 60비트 64비트 128비트 256비트 512비트 가변
실행	명령어 파이프라인 버블 피연산자 포워딩 비순차적 명령어 처리 레지스터 리네이밍 모의 실행 분기 예측 메모리 의존성 예측 하자드
병렬 레벨	비트 비트 직렬 워드 명령어 파이프라이닝 스칼라 슈퍼스칼라 태스크 스레드 프로세스 데이터 벡터 메모리
멀티스레딩	시간적 동시 (SMT) (하이퍼스레딩) SpMT 선점 협력형 클러스터 멀티스레드 (CMT) 하드웨어 스카웃
플린 분류	SISD SIMD (SWAR) SIMT MISD MIMD SPMD 어드레싱 모드
CPU 성능	초당 명령 수 (IPS) 클럭당 명령어 처리 횟수 (IPC) 명령어 당 사이클 (CPI) 플롭스 (FLOPS) 초당 트랜잭션 수 (TPS) SUPS 전성비 계산 차수 캐시 성능 측정 및 메트릭
코어 카운트	싱글 코어 프로세서 멀티 코어 매니코어 프로세서
유형	중앙 처리 장치 (CPU) GPGPU AI 가속기 시각 처리 장치 (VPU) 벡터 프로세서 배럴 프로세서 스트림 프로세서 디지털 신호 처리 장치 (DSP) 입출력 프로세서/DMA 컨트롤러 네트워크 프로세서 베이스밴드 프로세서 물리 처리 장치 (PPU) 코프로세서 안전한 암호 보조 처리기 주문형 반도체 FPGA FPOA 복합 프로그래머블 논리 소자 마이크로컨트롤러 마이크로프로세서 모바일 프로세서 노트북 프로세서 초저전압 프로세서 멀티 코어 매니코어 프로세서 타일 프로세서 멀티칩 모듈 (MCM) 칩 스택 멀티칩 모듈 단일 칩 시스템 (SoC) 멀티프로세서 시스템 온 칩 (MPSoC) 프로그래밍 가능 단일 칩 시스템 (PSoC) 네트워크 온 칩 (NoC)
구성 요소	실행 장치 (EU) 산술 논리 장치 (ALU) 주소 생성 장치 (AGU) 부동소수점 장치 (FPU) 로드 스토어 유닛 (LSU) 분기 예측 유니파이드 레저베이션 스테이션 배럴 시프터 언코어 Sum addressed decoder (SAD) 프론트 사이드 버스 백사이드 버스 노스브리지 사우스브리지 가산기 곱셈기 복호화 주소 디코더 멀티플렉서 멀티플렉서 레지스터 캐시 메모리 관리 장치 (MMU) IOMMU 통합 메모리 컨트롤러 (IMC) 전원 관리 장치 (PMU) 변환 색인 버퍼 (TLB) 스택 엔진 레지스터 파일 프로세서 레지스터 하드웨어 레지스터 메모리 버퍼 레지스터 (MBR) 프로그램 카운터 마이크로코드 ROM 데이터패스 제어 장치 인스트럭션 유닛 재배열 버퍼 버퍼 쓰기 버퍼 코프로세서 전자 개폐기 전자 회로 집적 회로 3차원 집적 회로 불리언 회로 디지털 회로 아날로그 회로 혼합 신호 집적 회로 전원 관리 집적 회로 퀀텀 회로 논리 회로 조합 논리 순차 논리 이미터 결합 논리 (ECL) 트랜지스터-트랜지스터 논리 (TTL) 글루 로직 퀀텀 게이트 게이트 배열 계수기 버스 반도체 소자 클럭 속도 CPU 배수 비전 칩 멤리스터
전원 관리	APM ACPI 동적 주파수 스케일링 동적 전압 스케일링 클럭 게이팅
하드웨어 보안	NX 비트 인텔 MPX 인텔 시큐어 키 하드웨어 제한 (펌웨어) Software Guard Extensions (인텔 SGX) Trusted Execution Technology 신뢰 플랫폼 모듈 (TPM) 안전한 암호 보조 처리기 하드웨어 보안 모듈 헝즈칩
관련 항목	범용 CPU의 역사